Open LLM Leaderboard - work4ai

Open LLM Leaderboard

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard HuggingFaceH4/open_llm_leaderboard

オープンソースLLMのベンチマーク比較

以下の4つのペンチマークで評価する

AI2 Reasoning Challenge

小学校高学年向けの科学問題集

常識的な推論をテストするもので、人間にとっては簡単（～95％）だが、SOTAモデルにとっては難しい

テキストモデルのマルチタスク精度を測定するためのテスト

初等数学、米国史、コンピュータサイエンス、法律など、57のタスクに対応

言語モデルが質問に対する答えを生成する際に、真実であるかどうかを測定する

LLMベンチマーク